智能论文笔记

Cats: Complementary CNN and Transformer Encoders for Segmentation

Hao Li , Dewei Hu , Han Liu , Jiacheng Wang , Ipek Oguz

分类：计算机视觉

2022-08-24

最近，深度学习方法已经在许多医学图像分割任务中实现了最先进的表现。其中许多是基于卷积神经网络（CNN）。对于这种方法，编码器是从输入图像中提取全局和局部信息的关键部分。然后将提取的特征传递给解码器以预测分割。相比之下，最近的几部作品显示了使用变压器的卓越性能，可以更好地对远程空间依赖性进行建模并捕获低级细节。但是，对于某些任务无法有效替换基于卷积的编码器的某些任务，变形金刚作为唯一的编码器表现不佳。在本文中，我们提出了一个带有双重编码器的模型，用于3D生物医学图像分割。我们的模型是带有独立变压器编码器的U形CNN。我们融合了卷积编码器和变压器的信息，并将其传递给解码器以获得结果。我们从三个不同的挑战中评估了三个公共数据集上的方法：BTCV，MODA和DECHANLON。与在每个任务上有和没有变压器的最先进模型相比，我们提出的方法在整个方面都获得了更高的骰子分数。

translated by 谷歌翻译

ModDrop++: A Dynamic Filter Network with Intra-subject Co-training for Multiple Sclerosis Lesion Segmentation with Missing Modalities

Han Liu , Yubo Fan , Hao Li , Jiacheng Wang , Dewei Hu , Can Cui , Ho Hin Lee , Huahong Zhang , Ipek Oguz

分类：计算机视觉

2022-03-07

多发性硬化症（MS）是一种慢性神经炎症性疾病，多模态MRIS通常用于监测MS病变。许多自动MS病变细分模型已经开发并达到了人类水平的性能。但是，大多数已建立的方法都假定在训练过程中使用的MRI模式在测试过程中也可以使用，这在临床实践中不能保证。以前，已将称为模式辍学的训练策略应用于MS病变细分，以实现最先进的性能，而缺失了模态。在本文中，我们提出了一种称为ModDrop ++的新方法，以训练统一的网络适应于任意数量的输入MRI序列。 ModDrop ++以两种关键方式升级ModDrop的主要思想。首先，我们设计一个插件动态头，并采用过滤器缩放策略来提高网络的表现力。其次，我们设计了一种共同训练策略，以利用完全模态和缺失方式之间的主体内关系。具体而言，主体内共同训练策略旨在指导动态头部在同一主题的全模式数据和缺失模式数据之间生成相似的特征表示。我们使用两个公共MS数据集来显示ModDrop ++的优势。源代码和训练有素的模型可在https://github.com/han-liu/moddropplusplus上获得。

translated by 谷歌翻译

CrossMoDA 2021 challenge: Benchmark of Cross-Modality Domain Adaptation techniques for Vestibular Schwnannoma and Cochlea Segmentation

Reuben Dorent , Aaron Kujawa , Marina Ivory , Spyridon Bakas , Nicola Rieke , Samuel Joutard , Ben Glocker , Jorge Cardoso , Marc Modat , Kayhan Batmanghelich

分类：计算机视觉

2022-01-08

域适应（DA）最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割，但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外，这些数据集主要解决了单级问题。为了解决这些限制，与第24届医学图像计算和计算机辅助干预（Miccai 2021）结合第24届国际会议组织交叉模态域适应（Crossmoda）挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤（VS）的后续和治疗规划的两个关键脑结构：VS和Cochleas。目前，使用对比度增强的T1（CET1）MRI进行VS患者的诊断和监测。然而，使用诸如高分辨率T2（HRT2）MRI的非对比度序列越来越感兴趣。因此，我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1（n = 105）和未配对的非注释的HRT2（n = 105）。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割（n = 137）。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高（最佳中位数骰子 - vs：88.4％; Cochleas：85.7％）并接近完全监督（中位数骰子 - vs：92.5％;耳蜗：87.7％）。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。

translated by 谷歌翻译

Unsupervised Cross-Modality Domain Adaptation for Segmenting Vestibular Schwannoma and Cochlea with Data Augmentation and Model Ensemble

Hao Li , Dewei Hu , Qibang Zhu , Kathleen E. Larson , Huahong Zhang , Ipek Oguz

分类：计算机视觉

2021-09-24

磁共振图像（MRI）被广泛用于量化前庭切片瘤和耳蜗。最近，深度学习方法显示了用于分割这些结构的最先进的性能。但是，培训细分模型可能需要目标域中的手动标签，这是昂贵且耗时的。为了克服这个问题，域的适应是一种有效的方法，可以利用来自源域的信息来获得准确的分割，而无需在目标域中进行手动标签。在本文中，我们提出了一个无监督的学习框架，以分割VS和耳蜗。我们的框架从对比增强的T1加权（CET1-W）MRI及其标签中利用信息，并为T2加权MRIS产生分割，而目标域中没有任何标签。我们首先应用了一个发电机来实现图像到图像翻译。接下来，我们从不同模型的集合中集合输出以获得最终的分割。为了应对来自不同站点/扫描仪的MRI，我们在培训过程中应用了各种“在线”增强量，以更好地捕获几何变异性以及图像外观和质量的可变性。我们的方法易于构建和产生有希望的分割，在验证集中，VS和耳蜗的平均骰子得分分别为0.7930和0.7432。

translated by 谷歌翻译

Alexa, Let's Work Together: Introducing the First Alexa Prize TaskBot Challenge on Conversational Task Assistance

Anna Gottardi , Osman Ipek , Giuseppe Castellucci , Shui Hu , Lavina Vaz , Yao Lu , Anju Khatri , Anjali Chadha , Desheng Zhang , Sattvik Sahai

分类：自然语言处理 | 人工智能

2022-09-13

自2016年成立以来，Alexa奖计划使数百名大学生能够通过Socialbot Grand Challenge探索和竞争以发展对话代理商。挑战的目的是建立能够与人类在流行主题上连贯而诱人的代理人20分钟，同时达到至少4.0/5.0的平均评分。但是，由于对话代理商试图帮助用户完成日益复杂的任务，因此需要新的对话AI技术和评估平台。成立于2021年的Alexa奖Taskbot Challenge建立在Socialbot Challenge的成功基础上，通过引入交互式协助人类进行现实世界烹饪和做自己动手做的任务的要求，同时同时使用语音和视觉方式。这项挑战要求TaskBots识别和理解用户的需求，识别和集成任务和域知识，并开发新的方式，不分散用户的注意力，而不必分散他们的任务，以及其他挑战。本文概述了Taskbot挑战赛，描述了使用Cobot Toolkit提供给团队提供的基础架构支持，并总结了参与团队以克服研究挑战所采取的方法。最后，它分析了比赛第一年的竞争任务机器人的性能。

translated by 谷歌翻译

Nonlinear Optical Data Transformer for Machine Learning

Mustafa Yildirim , Ilker Oguz , Fabian Kaufmann , Marc Reig Escale , Rachel Grange , Demetri Psaltis , Christophe Moser

分类：人工智能 | 机器学习

2022-08-19

现代机器学习模型使用大型数据集使用越来越多的参数（GPT-3参数1750亿参数），以获得更好的性能。更大的是常态。光学计算已被恢复为通过执行线性操作的同时降低电力的光学加速器的大规模计算的潜在解决方案。但是，要用光实现有效的计算，在光学上而不是电子上创建和控制非线性仍然是一个挑战。这项研究探讨了一种储层计算方法（RC）方法，通过该方法，在绝缘体上的Linbo3中的14毫米长的几种模式波导被用作复杂的非线性光学处理器。数据集在飞秒脉冲的频谱上进行数字编码，然后在波导中启动。输出频谱非线性取决于输入。我们通过实验表明，与非转换数据相比，使用波导的输出谱提高了几个数据库的分类精度，使用来自波导的输出频谱具有784个参数的简单数字线性分类器，约为10 $ \％$。相比之下，必须具有40000个参数的深数字神经网络（NN）才能达到相同的准确性。将参数的数量减少$ \ sim $ 50，这说明了紧凑的光RC方法可以与深数字NN一起执行。

translated by 谷歌翻译

Machine Learning Based Radiomics for Glial Tumor Classification and Comparison with Volumetric Analysis

Sevcan Turk , Kaya Oguz , Mehmet Orman , Emre Caliskan , Yesim Ertan , Erkin Ozgiray , Taner Akalin , Ashok Srinivasan , Omer Kitis

分类：计算机视觉 | 机器学习

2022-08-13

目的;这项研究的目的是通过将机器学习应用于多模式MRI特征，将神经胶质肿瘤分为II，III和IV类别，与体积分析相比。方法;我们回顾性地研究了57例在3T MRI上获取的T2加权，T2加权，Flair图像和ADC MAP的胶质瘤患者。使用ITK-SNAP开源工具的半小局分割，将肿瘤分割为增强和非增强部分，肿瘤坏死，囊肿和水肿。我们测量了总肿瘤量，增强的非肿瘤，水肿，坏死体积以及与总肿瘤量的比率。对培训载体机（SVM）分类器和人工神经网络（ANN）进行了标记的数据，旨在回答感兴趣的问题。通过ROC分析计算预测的特异性，灵敏度和AUC。使用Kruskall Wallis评估了组之间连续度量的差异，并进行了事后DUNN校正以进行多次比较。结果;当我们比较组之间的体积比时，IV级和II-III级神经胶质肿瘤之间的统计学显着差异。 IV级神经胶质肿瘤的水肿和肿瘤坏死比率高于II和III级。体积比分析无法成功区分II和III级肿瘤。但是，SVM和ANN以高达98％和96％的精度正确分类了每个组。结论;在临床环境中，可以将机器学习方法应用于MRI特征，以无创，更容易地对脑肿瘤进行分类。

translated by 谷歌翻译

Learning from few examples: Classifying sex from retinal images via deep learning

Aaron Berk , Gulcenur Ozturan , Parsa Delavari , David Maberley , Özgür Yılmaz , Ipek Oruc

分类：计算机视觉 | 机器学习

2022-07-20

深度学习对医学成像产生了极大的兴趣，特别是在使用卷积神经网络（CNN）来开发自动诊断工具方面。其非侵入性获取的设施使视网膜底面成像适合这种自动化方法。使用CNN分析底面图像的最新工作依靠访问大量数据进行培训和验证 - 成千上万的图像。但是，数据驻留和数据隐私限制阻碍了这种方法在患者机密性是任务的医疗环境中的适用性。在这里，我们展示了小型数据集上DL的性能的结果，以从眼睛图像中对患者性别进行分类 - 直到最近，底眼前图像中才出现或可量化的特征。我们微调了一个RESNET-152模型，其最后一层已修改以进行二进制分类。在几个实验中，我们使用一个私人（DOV）和一个公共（ODIR）数据源评估在小数据集上下文中的性能。我们的模型使用大约2500张底面图像开发，实现了高达0.72的AUC评分（95％CI：[0.67，0.77]）。尽管与文献中的先前工作相比，数据集大小降低了近1000倍，但这仅仅是降低25％的性能。即使从视网膜图像中进行性别分类等艰巨的任务，我们也会发现使用非常小的数据集可以进行分类。此外，我们在DOV和ODIR之间进行了域适应实验。探索数据策展对培训和概括性的影响；并调查模型结合在小型开发数据集中最大化CNN分类器性能。

translated by 谷歌翻译

Universal Speech Enhancement with Score-based Diffusion

Joan Serrà , Santiago Pascual , Jordi Pons , R. Oguz Araz , Davide Scaini

分类：机器学习

2022-06-07

从语音音频中删除背景噪音一直是大量研究和努力的主题，尤其是由于虚拟沟通和业余声音录制的兴起，近年来。然而，背景噪声并不是唯一可以防止可理解性的不愉快干扰：混响，剪裁，编解码器工件，有问题的均衡，有限的带宽或不一致的响度同样令人不安且无处不在。在这项工作中，我们建议将言语增强的任务视为一项整体努力，并提出了一种普遍的语音增强系统，同时解决了55种不同的扭曲。我们的方法由一种使用基于得分的扩散的生成模型以及一个多分辨率调节网络，该网络通过混合密度网络进行增强。我们表明，这种方法在专家听众执行的主观测试中大大优于艺术状态。我们还表明，尽管没有考虑任何特定的快速采样策略，但它仅通过4-8个扩散步骤就可以实现竞争性的目标得分。我们希望我们的方法论和技术贡献都鼓励研究人员和实践者采用普遍的语音增强方法，可能将其作为一项生成任务。

translated by 谷歌翻译

UPV at TREC Health Misinformation Track 2021 Ranking with SBERT and Quality Estimators

Ipek Baris Schlicht , Angel Felipe Magnossão de Paula , Paolo Rosso

分类：人工智能

2021-12-11

搜索引擎的健康误导是一个可能对个人或公共卫生产生负面影响的重要问题。为了减轻问题，TREC组织了健康错误信息轨道。本文介绍了这条赛道的提交。我们使用BM25和域特定的语义搜索引擎来检索初始文档。后来，我们检查了健康新闻架构以获得质量评估，并将其应用于重新排名的文件。我们通过使用互酷等级融合将分数与不同组件合并。最后，我们讨论了未来作品的结果并结束。

translated by 谷歌翻译